榨干GPU性能,中兴Mariana(马里亚纳)突破显存壁垒 KV Cache (Key-Value Cache)作为提升生成速度的核心技术,却像一个 “吞存巨兽”—— 每增加一个 token,就需要更多显存存储键(Key)和值(Value)向量,最终成为制约模型规模扩张、并发能力提升的 “紧箍咒”如何高效、经济地扩展K gpu 显存 马里亚纳 mariana 中兴mariana 2025-08-26 13:46 3